x

Contents

5.9.2

Direction-Matching Distillation . . . . . . . . . . . . . . . . . . . . .

141

5.10 BiT: Robustly Binarized Multi-Distilled Transformer . . . . . . . . . . . . .

142

5.10.1 Two-Set Binarization Scheme . . . . . . . . . . . . . . . . . . . . . .

143

5.10.2 Elastic Binarization Function . . . . . . . . . . . . . . . . . . . . . .

144

5.10.3 Multi-Distilled Binary BERT . . . . . . . . . . . . . . . . . . . . . .

145

5.11 Post-Training Embedding Binarization for Fast Online Top-K Passage

Matching

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

146

5.11.1 Semantic Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .

146

5.11.2 Gradient Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . .

147

6

Applications in Computer Vision

149

6.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

149

6.1.1

Person Re-Identification . . . . . . . . . . . . . . . . . . . . . . . . .

149

6.1.2

3D Point Cloud Processing

. . . . . . . . . . . . . . . . . . . . . . .

149

6.1.3

Object Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

150

6.1.4

Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . .

150

6.2

BiRe-ID: Binary Neural Network for Efficient Person Re-ID . . . . . . . . .

151

6.2.1

Problem Formulation

. . . . . . . . . . . . . . . . . . . . . . . . . .

151

6.2.2

Kernel Refining Generative Adversarial Learning (KR-GAL)

. . . .

152

6.2.3

Feature Refining Generative Adversarial Learning (FR-GAL) . . . .

153

6.2.4

Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

154

6.2.5

Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

156

6.3

POEM: 1-Bit Point-Wise Operations Based on E-M for Point Cloud

Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

157

6.3.1

Problem Formulation

. . . . . . . . . . . . . . . . . . . . . . . . . .

158

6.3.2

Binarization Framework of POEM . . . . . . . . . . . . . . . . . . .

159

6.3.3

Supervision for POEM . . . . . . . . . . . . . . . . . . . . . . . . . .

160

6.3.4

Optimization for POEM . . . . . . . . . . . . . . . . . . . . . . . . .

161

6.3.5

Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

164

6.4

LWS-Det: Layer-Wise Search for 1-bit Detectors

. . . . . . . . . . . . . . .

166

6.4.1

Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

167

6.4.2

Formulation of LWS-Det . . . . . . . . . . . . . . . . . . . . . . . . .

168

6.4.3

Differentiable Binarization Search for the 1-Bit Weight . . . . . . . .

169

6.4.4

Learning the Scale Factor . . . . . . . . . . . . . . . . . . . . . . . .

170

6.4.5

Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

171

6.5

IDa-Det: An Information Discrepancy-Aware Distillation for 1-bit Detectors

171

6.5.1

Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

174

6.5.2

Select Proposals with Information Discrepancy . . . . . . . . . . . .

174

6.5.3

Entropy Distillation Loss

. . . . . . . . . . . . . . . . . . . . . . . .

176

6.5.4

Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

176

Bibliography

179

Index

203